Pandas 是一個強大的 Python 資料處理工具,主要用於操作表格數據。
Pandas 提供了兩個主要的資料結構:
安裝
可以使用 pip 安裝 Pandas:
pip install pandas
導入Pandas
import pandas as pd
創建 DataFrame
data = {
'姓名': ['小明', '小紅', '小藍'],
'年齡': [25, 30, 22],
'城市': ['台北', '高雄', '新竹']
}
df = pd.DataFrame(data)
print(df)
#輸出:
姓名 年齡 城市
0 小明 25 台北
1 小紅 30 高雄
2 小藍 22 新竹
查看資料
print(df.head())
print(df.info())
3.查看某一列:
print(df['姓名'])
#輸出:
0 小明
1 小紅
2 小藍
Name: 姓名, dtype: object
4.查看某一行:
print(df.iloc[0])
#輸出:
姓名 小明
年齡 25
城市 台北
Name: 0, dtype: object
print(df.loc[0, '姓名'])
#輸出:
小明
基本操作
df['薪水'] = [50000, 60000, 55000]
print(df)
#輸出:
姓名 年齡 城市 薪水
0 小明 25 台北 50000
1 小紅 30 高雄 60000
2 小藍 22 新竹 55000
df = df.drop(columns=['薪水'])
print(df)
df.loc[0, '年齡'] = 26
print(df)
#輸出:
姓名 年齡 城市
0 小明 26 台北
1 小紅 30 高雄
2 小藍 22 新竹
filtered_df = df[df['年齡'] > 25]
print(filtered_df)
#輸出:
姓名 年齡 城市
0 小明 26 台北
1 小紅 30 高雄
匯出和讀取數據
df = pd.read_csv('data.csv')
df.to_csv('output.csv', index=False)
數據統計分析
data = {
'產品': ['A', 'B', 'A', 'C', 'B', 'A'],
'銷售額': [200, 150, 300, 250, 100, 400]
}
df = pd.DataFrame(data)
total_sales = df['銷售額'].sum()
print('總銷售額:', total_sales)
#輸出:總銷售額: 1400
grouped_sales = df.groupby('產品')['銷售額'].sum()
print(grouped_sales)
#輸出:
產品
A 900
B 250
C 250
Name: 銷售額, dtype: int64